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基于 LDA 模型 的 国内 档案 学 热点 主题 及 演化 研究 # 
周 洁 ! mH 
宁波 大 学 档案 馆 — 宁波 ”315211 ? 浙江 省 立 同 德 医院 ”杭州 ”310000 
摘要 : [目的 /意义 ] 采用 LDA 模型 发 现 近 年 来 我 国 档案 学 的 研究 热点 和 发 展 趋 
势 ， 为 我 国 档 案 学 主题 研究 提供 数据 支撑 和 参考 价值 。[ 方 法 /过 程 ] 选取 2012 
年 -2022 年 间 9 本 档案 学 核心 期 刊 的 中 文摘 要 为 分 析 样 本 ， 以 中 国 知 网 数据 库 
(CNKI) 为 来 源 数据 库 ， 通 过 Python 的 开源 工具 包 pkuseg 进行 中 文 分 词 ， 
gensim 搭建 LDA 模型 ，pyLDAvis 将 各 主题 基于 web 的 交互 式 可 视 化 。 根 据 
pyLDAvis 可 视 化 结果 为 主题 命名 ， 根 据 文档 一 主题 概率 分 布 情况 并 结合 时 间 项 
分 析 热 点 主题 和 主题 演化 过 程 。 [结果 /结论 ] 根据 LDA 模型 能 够 有 效 地 区 分 国 
内 档案 学 领域 研究 的 主题 。2012-2022 年 国内 档案 学 领域 有 14 个 主题 ， 其 中 热 
点 主题 有 5 个 ;3 个 主题 旦 上 升 趋势 ，1 个 主题 呈 下 降 趋势 ，10 个 主题 呈 不 同 程 
度 的 波段 趋势 。 
关键 词 : 档案 学 ”LDA 模型 ”热点 主题 主题 演化 
分 类 号 : G270 
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1 引言 

档案 学 领域 中 的 文献 研究 法 通过 各 种 横向 和 纵 癌 的 比较 为 档案 学 者 梳理 出 
清晰 的 发 展 脉络 ， 为 其 快速 了 解 档案 学 领域 提供 有 效 便捷 的 途径 ， 为 更 深入 的 
后 续 研 究 提供 扎实 的 数据 文 撑 。 文献 研究 法 主要 分 为 两 种 方式 : 文献 计量 法 和 内 
容 分 析 法 。 

文献 计量 法 主要 是 对 文献 的 各 类 外 部 特征 进行 研究 分 析 。 如 ; 宋 进 ! 等 根据 
地 域 特征 ， 对 河南 省 十 八 个 地 区 的 公共 档案 馆 发 表 的 学 术 论 文 分 布 情况 进行 分 
析 ， 多 角度 、 多 层次 、 全 面 、 客观 地 反映 河南 省 公共 档案 馆 科 学 研究 的 态势 , 进 一 
步 揭示 河南 省 公共 档案 馆 研究 人 员 的 科研 创新 能 力 ; 马 双双 :等 根据 研究 机 构 特 
征 ， 从 整体 合作 网 络 与 核心 合作 网 络 两 个 层次 对 我 国 档案 学 领域 研究 机 构 合作 
网 络 进行 了 分 析 ， 总 结 出 核心 机 构 网 络 连通 性 较 好 , 但 核心 机 构 合 作 的 多 样 性 有 
竺 加强 的 结论 ; 李 英 ?* 根 据 基金 项 目 特征 ， 从 立项 数量 .立项 类 型 .立项 单位 及 其 
所 属 行业 、 项 目 负 责 人 以 及 项 目的 主题 内 容 特 征 等 方面 进行 系统 分 析 比 较 ， 预 测 
未 来 的 发 展 趋势 ， 陶 俊 “ 等 根据 高 被 引文 特征 ， 从 主题 、 演 化 和 引用 结构 方面 对 
档案 学 CSSCI 来 源 期 刊 近年 的 高 被 引 论 文 统计 分 析 , 刻画 档案 学 科 结 构 进 而 评价 
总 体 竞争 力 ; 杨 万 欢 ;等 根据 期 刊 分 布 . 核 心 作者 .项目 基金 .研究 方法 、 研 究 内 容 
论文 类 型 等 特征 ， 对 国内 智慧 档案 馆 研究 的 学 术 论文 进行 统计 分 析 ， 概 括 当 前 
内 智慧 档案 馆 态 势 , 并 对 未 来 发 展 和 研究 导 回 提出 展望 。 

内 容 分 析 法 ， 顾 名 思 义 ， 是 指 直接 对 文献 的 文字 内 容 进 行 分 析 。 目前 ， 内 容 
分 析 法 主要 分 为 三 种 方式 : 人 工分 析 ， 档 案 学 者 通过 对 文献 的 大 量 阅读 与 理解 ， 
进行 综合 分 析 与 总 结 ; 词 频 分 析 ， 通 过 统计 各 词语 出 现 的 频率 ， 对 高 频 词 、 共 词 
等 进行 研究 ， 文 本 分 析 ， 通 过 各 类 先进 的 文本 模型 算法 挖掘 文本 的 主题 ， 语 义 
等 。 人 工分 析 方式 如 于 欢 欢 6 等 梳理 档案 领域 中 关于 区 域 块 链 技术 的 文献 ， 将 其 
分 为 :区 块 链 技术 应 用 的 可 行 性 ， 面 向 专门 档案 领域 的 应 用 ， 基 于 区 块 链 技术 的 
档案 管理 平台 ， 区 块 链 技术 应 用 于 档案 领域 的 动力 因素 ， 阻 力 因 素 和 推广 策略 
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六 大 主题 。 词 频 分 析 方 式 如 张 晓 培 7 通过 词 频 分 析 和 建立 的 高 频 词 可 视 化 共 词 网 
络 图 ， 得 出 档案 信息 、 档 案 开 放 、 现行 文件、 国家 档案 馆 、 信 息 查 询 、 档 案 工 作 、 档 
案 利 用 是 当前 政府 信息 公开 与 档案 相关 研究 领域 研究 的 重点 与 热点 。 文本 分 析 方 
式 如 隶 万 辉 5 等 利用 ATM 主题 模型 计算 作者 所 属 主题 分 布 情况 ， 构 建 作者 主题 内 
合作 网 络 及 跨 主 题 合 作 网 络 并 测度 不 同 网 络 内 学 者 的 中 心 度 ， 以 此 来 反映 作者 
在 研究 领域 的 研究 专业 性 和 知识 创新 性 ， 宋 雪 座 ?等 利用 RDF 数据 模型 存储 清 代 
祭礼 礼 器 知识 ， 构 建 清 代 祭礼 礼 器 知识 图 谱 ， 通 过 检索 知识 图 谱 进 行 知 识 发 现 ; 
马 海 群 " 等 利用 LDA 主题 聚 类 及 相似 度 计 算 方 法 对 《中 华人 民 共 和 国 档 案 法 》 
(2020 修订 版 ， 以 下 简称 档案 法 ) 和 《“ 十 四 五 ”全 国 档案 事业 发 展 规划 》 进 行 
主题 和 内 容 协 同 关 系 研究 ， 发 现 其 在 档案 信息 化 建设 、 档 案 人 才 培 养 方 面具 有 较 
强 的 协同 性 。 

文献 计量 法 最 为 简单 和 便捷 ， 能 够 对 大 量 期 刊 论 文 进行 快速 分 析 ， 但 其 缺 
少 对 文献 主要 内 容 的 理解 。 人 工分 析 方 法 最 为 准确 和 精准 ， 但 需要 大 量 阅读 相关 
文献 并 做 好 总 结 归纳 ， 耗 时 和 久 的 同时 还 需要 作者 有 很 强 的 逻辑 分 析 能 力 。 词 频 分 
析 方 法 没有 考虑 词 频 与 文档 ， 文 档 与 时 间 序 列 之 间 的 关联 关系 ， 很 难 全 面 呈现 
文献 所 表达 的 内 涵 。 文 本 分 析 方 法 通过 搭建 各 类 文本 模型 ， 使 用 计算 机 辅助 运算 
能 够 较 快 发 掘 文献 的 深层 含义 。 通 过 知 网 检索 发 现 ， 基 于 文本 分 析 方 法 研究 档案 
学 的 文献 较 少 ， 值 得 进一步 探索 与 深究 。 

Griffithsu 等 于 2004 年 首先 运用 Gibbs 抽样 算法 来 推断 LDA 模型 ， 并 用 于 
提取 文献 主题 。 经 过 学 者 门 后 续 不 断 地 改进 与 扩展 ， 是 目前 文本 模型 中 最 常用 的 
模型 之 一 。 基于 关键 字 的 LDA 模型 会 出 现 主 题 提取 不 全 情况 ， 基 于 全 文 的 LDA 模 
型 因数 据 量 过 大 存在 “噪音 ”干扰 。 而 摘要 用 简短 的 语句 总 结 概括 了 整个 文献 的 
主要 内 容 ， 是 作者 思想 的 精华 提炼 。 故 本 文 拟 采用 LDA 模型 对 我 国 档案 学 2012- 
2022 年 这 11 年 的 9 本 档案 学 核心 期 刊 的 中 文摘 要 进行 文本 分 析 ， 通 过 Python 
语言 的 的 开源 工具 pkuseg 包 对 文献 摘要 中 文 分 词 ，gensim 包 在 分 词 基础 上 拱 
建 LDA 模 型， 运用 困惑 度 来 确定 档案 学 主题 模型 数量 ，pyLDAvis 包 将 各 主题 基 
于 web 的 交互 式 可 视 化 ,最 后 ， 根 据 可 视 化 网 页 命名 各 主题 ， 根 据 文档 一 主题 概 
率 分 布 情况 并 结合 时 间 项 分 析 热 点 主题 和 主题 演化 过 程 。 

2 数据 来 源 及 预 处 理 
2. 1 数据 来 源 

本 文 将 中 国 知 网 数据 库 作为 数据 源 ， 从 北大 核心 期 刊 目录 中 选 定 与 档案 学 
紧密 相关 的 9 本 核心 期 刊 作为 期 刊 来 源 ,。 通过 中 国 知 网 的 高 级 检索 功能 ， 采 用 文 
献 来 源 =“ 档 案 学 通讯 ”或 “档案 学 研究 ”或 “中 国 档 案 ” 或 “档案 管理 ”或 


“档案 与 建设 ”或 “历史 档案 ”或 “民国 档案 ”或 “北京 档案 ”或 “浙江 档 
案 ”， 发 表 时 间 范 围 为 2012-2022 年 进行 组 合 查 询 。 除 去 新 闻 动 态 、 会 议 培训 通 
知 、 上 级 部 门 传真 等 与 研究 不 相关 的 文献 ， 以 及 无 摘要 内 容 的 文献 ， 共 计 11561 
篇 。 通 过 碍 新 〈 引 文 格式 ) 导出 excel 表 作 为 实验 数据 表 。 实 验 数据 表 中 期 刊 来 
源 和 时 间 分 布 情况 如 表 1 所 示 。 

表 1 期 刊 时 间 分 布 表 
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2. 2 数据 
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预 处 理 


本 文选 择 pkuseg 包 进 行 中 文 分 


jb], pkuseg 包 是 北京 大 学 语言 计算 与 机 器 学 


习 研 究 组 罗 害 轩 等 开发 的 一 球 多 领域 中 文 分 词 工 具 包 ， 其 简单 易 用 ， 支 持 细 
= 分 领域 分 词 ， 有 效 提升 了 分 词 准 确 度 。pkuseg 包 可 自 定 义 词典 ， 如 将 档案 专 有 
> 名 词 “ 智 慧 档案 馆 ” 作 为 一 个 词 处 理 ， 而 不 是 拆 分 成 “智慧 ”、“ 档 案 馆 ”两 个 
词 ， 本 文 提取 实验 数据 表 中 的 关键 词 作为 自 定 义 词典 。 在 分 ) 词 的 同时 ， pkuseg 
包 支 持 停 用 词 过 滤 。 中文 停 用 词 表 (cn stopwords) 包含 通用 的 无 意义 词 表 ， 但 
未 包含 “本 文 ”、“ 阐 述 ” 等 论文 结构 的 无 意义 词 ， 本 文选 择 中 文 停 用 词 表 + 
“人 工 补 著 ”的 方式 设置 停 用 词 表 。 
2. 3 最 优 主题 数 选择 


gensim 包 构建 LDA 模型 ,目前 ，LDA 模型 


经 过 数据 预 处 理 后 得 到 文档 - 词 项 文件 ， 将 
最 优 主题 
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本 文采 用 困惑 度 来 确定 最 优 


题 数 ， 实 验 结 果 如 图 1 所 示 。 当 主题 数目 为 14 时 ， 


困惑 度 较 小 ， 


且 随 着 后 续 


EMIL 困惑 度 值 基本 维持 不 变 。 缘 上 所 述 ， 设 置 主题 个 数 K=14， 文 
档 - 主 题 分 布 的 先 验 信 息 alpha-50/k, 主题 - 词 项 分 布 的 先 验 信息 eta=0. 01, 各 主 
题 下 最 相关 的 词 项 数量 num words=30。 
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图 1 主题 数 与 困惑 度 变化 分 布 图 


3. 实验 结果 与 分 析 
3. 1 实验 结果 


202302.00055v1 


chinaXiv 


经 过 LDA 模型 测试 后 ， 得 到 词 项 -主题 概率 分 布 文件 、 文 档 - 主 题 概率 分 布 文 
TF. 使 用 pyLDAvis 包 将 LDA 模型 运算 结果 保存 为 交互 式 HTML 文件 ， 如 图 2 rn 。 
pyLDAvis 包 主 要 由 Carson Sievertl 等 提供 ， 通 过 交互 式 网 页 的 演示 ， 帮 助 用 
户 快 速 直 接 的 观察 各 主题 情况 。 


Selected Topic: |1 | [ Previous Topic | | Next Topic | | Clear Topic | Slide to adjust relevance metric 2) mmsmmm— pr— i 
A21 00 02 04 o6 08 10 


Intertopic Distance Map (via multidimensional scaling) Top-30 Most Relevant Terms for Topic 1 (8.3% of tokens) 
0 1,000 2,000 3,000 4,000 5,000 


5 9 z7 EE 


Marginal topic distribution : IA —$ | 


Overall term frequency 
296 ERN Estimated term frequency within the selected topic 


2. relevance(term w | topic t) = À * p(w | t) + (1 - À) * p(w | t)/p(w); see Sievert & Shirley (2014) 


2 LDA 模型 可 视 化 结果 图 
2 左 侧 的 蓝 色 圆圈 表示 LDA 模型 的 14 个 主题 ， 蓝 色 圆 圈 之 间 的 距离 表示 
主题 间 的 相似 性 ， 圆 圈 间 的 交叉 表示 两 个 主题 的 特征 词 有 交叉 。 右 侧目 前 显示 左 
侧 编号 为 1 的 主题 的 前 30 个 特征 词 项 ， 每 个 词 项 的 蓝 色 部 分 代表 其 在 整个 文档 
中 所 占 权 重 ， 红 色 部 分 代表 其 在 该 主题 中 所 占 权 重 。 右 上 角 入 值 可 从 0 1 之 间 
Wi. A 值 越 接近 1， 表 示 在 该 主题 下 出 现 越 频 繁 的 词 项 与 该 主题 更 相关 ; 入 
值 越 接 近 0， 表 示 在 该 主题 下 越 专 有 的 词 项 与 主题 更 相关 。 图 2 表明 14 个 主题 分 
布 较为 均匀 合理 ， 大 部 分 特征 词 仅 归 属于 一 个 主题 。 根据 图 2 可 视 化 结果 对 各 主 
题 进行 命名 ， 主 题 与 排名 靠 前 的 10 相关 词 项 如 图 表 2 所 示 。 
表 2 主题 - 词 项 分 布 表 
m 
政府 \ 政 治 、 日 本 、 南 京 、 国 民政 府 、 革命 . 中央、 运动. 中 国共 
产 党 、 国 民 党 


历史 档案 历史 、 清 代 、 史料 、 明 代 、 历 史 档 案 馆 、 珍 吐 、 清 朝 、 档 案 史 料 、 


中 国 古代 、 盛 京 


档案 服务 服务 、 利 用 共享、 档案 利用 、 用 户 、 利 用 服务 、 知 识 服 务 、 资 源 
整合 、 用 户 需 求 、 资 源 共享 

档案 价值 档案 、 价 值 文 化 .记录 、 文 化 建设 .档案 文化 .档案 价值 文字 、 

符号 、 承 载 

NU 
IY 

Topic6 ”| 档案 信息 化 ”| 技术 、 系统、 档案 数据 、 信 息 化 、 信 息 技术 、 档 案 信 息 化 、 信 息 
化 建设 、 智 能 化 、 智 慧 档案 馆 、 顶 层 设计 


1. saliency(term w) = frequency(w) * [sum t p(t | w) * log(p(t | w)/p(t)]] for topics t: see Chuang et. al (2012) 
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编制 

TUNBE SIZE -不 业 档 案 . 工 程 .公司 .生产 .材料 .建设 项 目 .项 目 档 案 、 
、 工 程 档案 
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icll | 电子 档案 ETUR ETERNE AXN 
全 性 、 一 体 化 、 管 理 系统 


学 、 中 国 档案 学 、 基 础 理论 、 档 案 学 理论 


icl2 | 档案 学 理论 理论 、 档 案 学 、 学 术 、 学 科 、 档 案 学 研究 、 理 论 研究 、 我 国 档案 


档案 开发 开发 、 档 案 文 化 ` 产 品 ` 记 忆 、 宣 传 、 编 纂 、 挖 掘 、 档 案 编 研 、 口 


述 历史 、 媒 体 


Topicl4 | 档案 管理 管理 、 档 案 管理 、 档 案 整理 .收集 档案 收集 ,业务 、 档 案 库房 、 
分 类 、 接 收 、 移 交 
3. 2 主题 分 析 
下 面 对 14 个 主题 进行 简要 分 析 ， 并 根据 文档 -主题 概率 分 布 文件 ， 选 取 各 


主题 下 概率 较 高 的 文档 进行 阐述 。 


COD 民国 档案 。 民 国 档 案 是 指 从 1912 年 辛 玄 革 命 爆发 到 1949 年 中 华人 民 
共和 国 成 立 期 间 的 史料 档案 ， 是 对 民国 期 间 的 革命 战争 、 国 民政 府 建 设 等 剖析 。 


如 张 展 ” 考 察 华北 、 华 中 日 军 围绕 “新 中 央 政 府 ” 之 争 所 产生 的 由 峰 ， 探 讨 日 军 


对 伪 政 权 政 策 的 出 台 背 景 与 模式 。 姚 江 鸿 探讨 1944 年 国民 党 实施 改革 的 原因 、 
动力 以 及 内 部 决策 经 过 ， 以 此 管 帘 国民 党 内 部 复杂 的 权力 结构 、 人 事 关 系 ， 以 及 


蒋介石 在 用 人 和 处 理 战 略 危 机 时 的 一 些 思维 特征 。 


(2) 历史 档案 。 历 史 档 案 以 明 清 时 期 的 史料 档案 为 主 ， 主 要 是 对 名 人 名 事 、 
官僚 制度 、 图 书 背 作 等 进行 研究 。 如 李兵 “利用 《 清 实录 》《 钦 定 科 场 条 例 》 等 文献 ， 


详细 描述 了 湖南 士 子 呼吁 分 曾 、 湖 南 巡 抚 奏 请 分 阅 ， 实 现 分 阁 : 新 建 与 重修 贡院 
的 整个 过 程 ， 陈 晨 * 梳 理 盛 永 巡 察 官 的 发 展 脉络 , 检视 其 职掌 与 权力 的 演进 过 程 


及 实际 运作 ; 赵 彦 昌 ? 概括 了 清 代 盛 京 总 管内 务 府 衙门 处 理 旺 室 事 务 往 来 公文 
的 副本 档 《 黑 图 档 》 中 有 关 凤 凰 楼 的 信息 ， 用 以 探究 凤凰 楼 职能 的 变化 、 日 第 维护 


与 修缮 事务 。 


(3) 档案 服务 。 档 案 服 务 是 指 档案 部 门 根 据 用 户 实 际 需 求 ， 探 索 新 平台 、 新 
方法 、 新 模式 等 ， 以 期 通过 资源 整合 和 共享 ， 为 用 户 提供 更 加 个 性 化 、 智 能 化 服 
务 。 如 王 成 兴 ” 等 分 别 对 档案 信息 服务 平台 的 概念 和 建设 必要 性 进行 了 界定 与 分 
析 ， 并 对 档案 信息 服务 交互 平台 模型 进行 了 构建 ， 伟 水 珍 ” 通 过 分 析 档 案 信息 
用 户 的 多 样 性 、 个 性 化 以 及 档案 信息 用 户 需 求 的 个 性 化 ， 探 讨 了 面向 用 户 需 求 的 
档案 信息 个 性 化 服务 ， 连 志 英 ”基于 国内 外 档案 机 构 在 社会 化 媒体 平台 环境 下 


档案 信息 服务 的 研究 现状 ， 构 建 了 参与 式 档案 信息 服务 模式 。 


(4) 档案 价值 。 档 案 价 值 主 要 以 理论 分 析 为 主 ， 档 案 作为 文字 的 原始 记录 ， 


承载 了 丰富 的 历史 数据 ， 为 人 类 提供 了 文化 价值 ， 情 感 价值 、 凭 详 


FE 人 价值、 经 验 价 


值 、 经 济 价值 等 多 种 价值 如 赵 爱 学 ”从 档案 载体 “物化 ”价值 、 承 载 记忆 符号 的 


“文化 价值 ”两 个 方面 进行 考察 ， 探 讨 档案 的 文化 起 源 。 通 过 对 档案 包含 着 人 与 


自身 自我 意识 的 关系 、 人 与 自然 的 物质 变量 的 关系 、 人 与 社会 行为 的 关系 的 历史 
考察 ， 损 示 档 案 的 文化 属性 ;， 杨 光 ”等 从 话语 形式 、 主题 认 知 和 文化 面貌 三 个 方 
面 分 析 了 档案 从 文字 档案 文本 ) 、 图 像 〈 档 案 影像 ) 到 二 进 制 代码 〈 数 字 档 


R) 的 变迁 ， 管 先 海 ” 深 入 探讨 了 档案 价值 、 档 案 主 体 价值 以 及 档案 客体 价值 。 
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(5) 档案 法 律 。 档 案 法 律 的 研究 主要 围绕 档案 法 展开 ， 包 括 对 法 律 的 解读 、 
建议 、 实施 措施 等 。 如 梅 帅 ”在 新 《中 华人 民 共 和 国 行政 处 罚 法 》 视 域 下 ， 发 现 我 
国 新 修订 的 档案 法 在 立法 规定 、 立 法 技术 、 制 度 建 设 .监督 执行 等 方面 存在 一 定 的 
滞后 与 缺陷 ， 建 议 更 新 完善 《档案 行政 处 罚 程序 暂行 规定 》 改 进 档案 行政 处 罚 程 
序 的 制定 技术 、 完 善 档案 行政 处 罚 程序 相关 制度 、 健 全 档案 行政 处 罚 监 督 执行 规 
定 。 

(6) 档案 信息 化 。 档 案 信息 化 是 指 通过 体系 建设 、 技 术 引 入 等 实现 对 档案 数 
字 资 源 的 安全 、 KAEH., 研究 以 数字 档案 馆 建 设 为 基础 ， 期 望 经 过 不 断 打磨， 
最 终 发 展 为 智慧 档案 馆 。 如 金波 ”等 总 结 了 档案 数据 安全 风险 种 类 、 成 因 及 特点 ， 
从 加 强 档 案 数 据 安全 法 治 建设 、 推 进 档 案 数据 安全 协同 共 治 、 打 造 档 案 数 据 安全 
技术 高 地 、 培 育 档案 数据 安全 专业 人 才 四 个 层面 分 析 档 案 数据 安全 保障 路 径 ， 赵 
湘 渝 ” 描 述 智 能 化 技术 在 档案 馆 建 筑 、 馆 库 、 安防 、 测 控 、 管 理 、 建 设 、 生 态 智能 化 
方面 的 应 用 现状 ， 依 据 现 有 应 用 中 “五 定 五 不 定 ” 的 特点 ， 从 定位 、 认识、 研究 、 
行动 四 个 方面 提出 建议 。 

(7) 文献 研究 。 文 献 研 究 是 指 学 者 们 对 档案 学 文献 期 刊 等 进行 研究 分 析 ， 
从 宏观 和 微观 各 个 角度 总 结 和 概括 档案 学 领域 的 研究 结果 。 如 王国 强加 从 年 度 、 
期 刊 、 作 者 、 机 构 分 布 对 1985-2018 年 在 档案 学 10 本 期 刊 上 的 有 关 家 庭 建 档 的 79 
篇 研究 成 果 进 行 分 析 ， 对 档案 行政 管理 部 门 如 何 施政 研究 不 够 、 家庭 建 档 的 实践 
研究 较 少 、 如 何 建 并 相关 法 律 研究 不 够 等 问题 提出 建议 。 

(8) 档案 规范 。 档案 规范 不 仅 指 对 档案 内 容 、 格式 、 管理 手续 规范 化 的 讨 ， 
还 包括 对 规章 标准 的 解读 、 对 比 、 建 议 等 。 如 韩 雪松 ”从 内 容 确 定性 和 文体 风格 方 
面 反 对 用 公告 进行 公示 ， 并 就 其 违规 使 用 问题 予以 说 明 ， 同 时 对 公示 性 公告 与 
公示 性 通知 之 间 的 互补 关系 进行 叙述 ;， 胡 明 波 半 对 《党 政 机 关公 文 处 理工 作 条 
例 》 新 旧版 本 进行 比较 ， 新 版 本 体现 出 鲜明 的 首创 性 、 简 约 性 、 规 范 性 、 先进 性 等 
特点 。 

(9) 企业 档案 ,企业 档案 主要 是 对 企业 集团 从 事 和 生产、 建设、 工程、 科研 时 过 
到 的 问题 进行 讨论 。 如 徐 敏 闻 针对 工程 档案 竣工 验收 过 程 遇 到 的 各 类 问题 ， 提 出 
了 加 大 宣传 力度 、 健 全 管理 制度 、 采 取 有 效 措施 、 加 强 监 督 检 查 的 方式 来 改进 ， 朱 
艳 杰 ”3 了 为 项 目 档 案 的 验收 ， 利 用 问卷 调查 法 详细 分 析 集 团 基 层 单位 人 员 配 置 、 项 
目 档 案 管理 方式 与 信息 化 建设 、 保管 条 件 等 情况 ， 岳 振 廷 发 现 加 强 企 业 档 案 文 
化 建设 、 档 案 工 作 主 动 融入 企业 文化 建设 、 在 档案 管理 中 贯彻 以 人 为 本 的 理念 等 
音 施 可 以 加 强 企 业 档 案 管理 。 

(100. 人 才 培 养 。 人 才 培 养 是 指 高 校 档案 专业 学 生 能 力 和 素质 的 培育 以 及 档 
案 工作 者 的 继续 教育 培训 。 如 王 广 宇 ”基于 档案 学 专业 职业 核心 能 力 与 专业 核心 
能 力 研判 依据 、 研 判 维度 ， 提 出 从 人 才 培 养 方案 的 制定 、 人 才 培 养 方式 的 选择 、 人 
才 培 养 资 源 的 构建 及 人 才 培 养 质 量 的 评价 角度 来 培养 “双核 ”人 才 ; EER” 
根据 我 国 档案 专业 人 员 继 续 教育 存在 的 问题 ， 提 出 了 培育 市 场 力量 ， 扩 大 继续 
教育 规模 ;， 加 强 教材 体系 建设 ， 完 善 继续 教育 内 容 ， 增加 实践 教学 内 容 ， 满 足 
一 线 工 作者 实际 需要 ;， 提升 师资 队伍 能 力 ， 建 设 专 兼职 教师 队伍 ; 搭建 全 国 档 
案 教 育 网 络 平台 ， 开 展 远程 继续 教育 ， 开 展 公益 性 培训 ， 控 制 继续 教育 收费 额 
度 的 对 策 。 

(1D). 电子 档案 。 电子 档案 以 探索 保障 电子 文件 真实 性 、 可 用 性 、 安 全 性 、 完 
整 性 的 技术 、 方 式 等 为 主 。 如 顾 伟 ”针对 照片 类 电子 档案 部 分 元 数据 易 算 改 的 问 
题 ， 采 用 电子 照片 来 源 检测 技术 对 M44 (设备 制造 商 ) 和 MAS (设备 型 号 ) 的 


—— 
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真实 性 进行 检测 ， 利 用 电子 照片 自身 信息 的 关联 性 M67《〈 图 像 高 度 ) 和 M58 
《图 像 宽度 ) 的 真实 性 进行 检测 ， 王 燃 基 通过 对 电子 文件 和 电子 证 据 的 概念 、 属 
性 进行 比较 与 对 接 ， 建 议 将 电子 证 据 的 真实 性 、 关 联 性 、 合 法 性 及 证 明 力 适当 吸 
收 至 电子 文件 管理 制度 中 ; 许 晓 彤 ”对 电子 文件 “四 性 ”与 电子 证 据 “ 三 性 ” 
进行 系统 分 析 与 映射 ， 构 建 电子 文件 证 据 性 概念 模型 。 

(12) 档案 学 理论 。 档 案 学 理论 主要 以 我 国 档案 学 理论 为 研究 对 象 。 如 李 佳 
BO 从 五 个 方面 对 社会 记忆 可 以 作为 档案 学 的 逻辑 起 点 进行 论证 ， 闫 静 ” 等 研 
完 后 现代 档案 学 理论 的 思想 实质 体现 在 其 理论 批判 性 、 思维 更 新 性 以 及 多 元 主张 
性 ， 袁 也 晨 分 析 文 件 连续 体 理 论 的 诞生 、 发 展 以 及 理论 成 熟 三 个 阶段 ， 认 为 结构 
化 理论 是 文件 连续 体 理 论 诞生 的 启发 者 , 发 展 中 的 参照 物 以 及 成 果 推 广 的 助力 者 。 

(13) 档案 开发 。 档 案 开发 是 指 对 档案 资源 的 挖掘 以 及 编 研 成果 的 推广 ， 主 
要 包括 档案 文化 产品 开发 、 口 述 历史 编 纂 、 以 及 多 媒体 宣传 等 。 任 越 “ 等 分 析 了 档 
案 文 化 产品 “ 微 博 ”共享 模式 的 运行 机 理 和 深 广 度 ; 张 雪 在 研究 故宫 文化 创 
意 产品 的 特性 、 灵 魂 、 定 位 、 宣 传 与 推广 方面 特点 的 基础 上 ， 建 议 开发 文化 创意 产 
品 应 吸纳 民间 创作 灵感 并 组 建设 计 开发 团队 、 拓展 文 创 产 品 的 娱乐 功能 和 教育 功 
能 、 全 面 改 善 外 部 开发 环境 等 ， 谢 兰 玉 “ 对 五 大 媒体 传播 口述 历史 档案 信息 的 优 
务 势 进行 总 结 ， 发 现 多 方位 传播 对 口述 历史 档案 价值 具有 重要 意义 。 

(14) 档案 管理 ,档案 管理 以 档案 收集 、 整 理 、 移 交 、 库 房 保管 流转 等 各 业务 
环节 为 研究 对 象 ， 对 其 出 现 的 问题 、 原 因 及 对 策 进 行 探讨 。 如 姚 志 刚 ”分 析 档 案 
库房 害虫 产生 机 理 以 及 档案 库房 霉 变 产 生 原理 ， 提 出 了 档案 库房 虫害 与 雪 变 防 
治 的 三 项 原则 与 三 种 方法 ， 谢 尊 贤 ”等 为 了 预防 和 控制 EMS 寄递 高 校 毕 业 生 档 
案 的 流转 安全 风险 ， 构 建 了 EMS 寄递 高 校 毕 业 生 档 案 流 转 安全 风险 评价 指标 体 
系 和 多 级 可 拓 评 价 理论 模型 ， 苏 雅 澄 ”以 单位 名 人 档案 收集 工作 为 例 ， 就 其 缺 
少 制度 、 缺 乏 资金 、 接 收 方式 单一 、 收 集 不 完整 等 问题 提出 相应 的 解决 对 策 。 
3. 3 热点 主题 

文档 -主题 概率 分 布 文件 是 由 DAK 的 矩阵 组 成 。 如 果 一 篇 文档 在 杀 个 主题 中 
概率 越 大 ， 则 表示 文档 内 容 与 主题 越 接 近 ;， 很 多 篇 文档 与 某 个 主题 越 接 近 ， 则 
表示 这 个 主题 是 热点 主题 。 根 据 上 述 原则 ， 计 算 热 点 主题 方式 如 下 : 


(1) 找 出 每 篇 文档 d 的 主题 概率 最 大 值 O04” 并 予以 标记 ; 


(2) 统计 每 个 主题 k 下 主题 概率 最 大 值 04” 的 个 数 N.; 


D 
(3) 计算 主题 强度 阔 值 7，/ = 元; 


(4) ENOT, 则 该 主题 为 热点 主题 。 


经 计算 ， 热 点 主题 有 五 个 : 民国 档案 、 历 史 档案 、 档 案 服务 、 档 案 信 息 化 和 电 
子 档案 。 从 实际 情况 来 看 ， 档 案 工 作 中 最 重要 的 是 档案 服务 与 档案 信息 化 ， 档 案 
信息 化 目前 最 关注 的 问题 是 “ 增 量 电子 化 ”， 即 电子 档案 的 收集 与 长 久保 存 ; 
从 档案 作用 来 看 ， 主 要 以 研究 历史 为 主 ， 即 以 民国 档案 和 历史 档案 为 主 。 热 点 主 
题 计算 结果 与 大 众 实际 关 注 情况 基本 相符 。 

3.4 主 题 演化 分 析 
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将 文档 -主题 概率 分 布 按 年 度 计算 ， 获 得 各 主题 在 时 间 窗 口上 的 主题 强度 演 
化 ”情况 。 结 果 显 示 14 个 主题 中 有 3 个 主题 时 上 升 趋势 ，1 个 主题 呈 下 降 趋势 ， 


10 个 主题 嘻 不同 程度 的 波段 趋势 。 上 升 和 下 降 趋势 如 图 3 所 示 


o 
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图 3 上 升 和 下 降 趋 势 图 
文献 研究 主题 为 下 降 趋 势 ， 档 案 信息 化 .人 才 培 养 、 档 案 学 理 


LE 论 主题 为 上 升 趋 


势 。 文 献 研究 主题 于 2012-2018 年 平稳 发 展 并 在 2018 年 达到 顶 
趋势 ， 表 明 其 研究 趋 于 成 就 。 档案 信 息 化 主题 在 2013 年 ，2018 


峰 后 开始 旺 下 降 
年 ，2020 年 有 所 


下 降 ， 但 很 快 回 升 ， 并 逐年 增长 。 档 案 信息 化 一 直 受 到 学 术 界 重点 关注 ， 随 着 


2020 年 国家 档案 局 实施 的 一 系列 行业 标准 后 成 为 最 热门 的 主题 之 一 。 人 才 培 养 
和 档案 学 理论 主题 虽 稍 有 下 降 ， 但 总 体 呈 现 上 升 趋 势 ， 是 未 来 值得 深入 研究 的 


对 象 .对 档案 学 理论 研究 势必 涉及 到 对 档案 学 理论 的 宣传 教育 
者 的 变化 趋势 呈现 出 高 度 相 似 性 。 
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图 4 波段 趋势 图 


波段 趋势 如 图 4 所 示 。 民国 档案 、 历 史 档案 、 档 案 服 务 、 档 案 价值 、 档 案 法 律 、 
档案 规范 、\ 企业 档案 、 电子 档案 、 档 案 开 发 、 档 案 管理 10 个 主题 呈现 波段 趋势 。 民 
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国 档案 和 档案 服务 主题 一 直 保持 较 高 的 关注 度 。2015 年 适 逢 抗战 胜利 70 周年 和 
新 青年 》 创 刊 100 周年 两 大 历史 节点 ， 消 现 出 一 大 批 学 者 们 从 新 视角 挖掘 民国 
档案 主题 。 历史 档案 与 民国 档案 主题 受 关注 趋势 保持 高 度 一 致 ， 但 趋势 的 变化 幅 
度 较 小 ， 说 明 学 者 们 对 其 研究 保持 一 定 的 持续 性 。2016 年 ， 浙 江 提 出 “最 多 跑 
一 次 ”改革 ， 档 案 服 务 主题 达到 短暂 顶峰 后 幅度 有 所 下 降 ， 于 2022 年 习近平 总 
书记 对 新 时 代 档 案 工 作 重 要 指示 后 达到 第 二 个 顶峰 。 档 案 服务 与 档案 开发 主题 表 
现 出 较为 相反 的 幅度 变化 ,档案 服务 是 及 时 为 用 户 提 供 所 需 的 档案 信息 ， 是 被 动 
行为 ， 档 案 开发 是 档案 专业 人 士 通过 筛选 、 编 纂 等 方式 加 工 档案 信息 ， 是 主动 行 
为 。 两 者 相互 衔接 、 互 相 补 充 ， 为 用 户 更 好 地 利用 档案 信息 提供 便利 .档案 价值 主 
题 于 2012-2013 年 稍 有 上 升 ， 随 后 开始 下 降 趋 于 平稳 。 说 明 该 主题 经 过 前 期 发 展 
现 处 于 平稳 发 展 阶段 。 档 案 法 于 2016 年 .2020 年 进行 修订 ， 档 案 法 律 主题 强度 随 
之 达到 新 高 ， 受 到 学 者 们 高 度 重视 。 档 案 法 律 和 档案 规范 主题 呈现 出 相反 的 变化 
趋势 。 两 者 相辅相成 ， 共 同 维护 档案 安全 ， 为 档案 事业 发 展 提 供 指 引 、 教 育 、 强 制 
作用 。 企业 档案 主题 在 2012-2022 年 间 虽 有 所 变化 ， 但 变化 很 小 ， 趋 于 平稳 ， 受 
到 各 企业 研究 者 的 连续 关注 。 电 子 档案 主题 一 直 是 学 者 们 重点 关注 对 象 ， 在 
2017 年 国家 档案 局 实施 的 《电子 文件 归档 与 电子 档案 管理 规范 》 文 件 时 关注 度 达 
到 极限 后 出 现 发 展 瓶 颈 ， 研 究 成 果 大 幅 减 少 直至 2020 年 档案 法 中 提出 “电子 档 
案 与 传统 载体 档案 具有 同等 效力 ”等 一 系列 支持 电子 档案 单 套 制 管 理 的 原则 后 ， 
其 发 展开 始 加 速 回 升 。 档 案 管 理 主题 于 2012-2016 年 、2020-2022 E E FKEA, 
2016-2020 年 呈 上 升 趋势 ， 总 体 呈 现 波 段 变化 。 档 案 管理 随 着 新 法 规 、 新 政策 、 新 
技术 的 提出 而 不 断 发 生变 革 ， 主 题 强度 变化 幅度 较 大 。 
4 结论 

本 文通 过 gensim 工具 包 搭 建 LDA 模型 ， 对 2012 年 -2022 年 间 9 本 档案 学 核 
心 期 刊 进行 数据 挖掘 。 根 据 pyLDAvis 工具 包 的 可 视 化 结果 为 主题 命名 ， 根 据 文 
档 一 主题 概率 分 布 情况 并 结合 时 间 项 分 析 热 点 主题 和 主题 演化 过 程 。 分 析 结 果 与 
实际 研究 情况 高 度 匹 配 ， 验 证 了 LDA 模型 在 档案 学 文献 研究 的 有 效 性 。 从 不 同 维 
度 展 示 了 近 十 一 年 档案 学 领域 的 研究 成 果 ， 不 同 主题 下 的 概率 较 高 的 文档 有 助 
于 对 某 些 特定 内 容 进行 精细 化 分 析 。 希望 为 档案 学 者 们 的 后 续 研 究 提供 参考 价值 
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Abstract: [Purpose/significance] The LDA model is used to discover 
the research hotspots and development trends of Chinese archival 
science in recent years, which provides data support and reference 
value for the research of Chinese archival science. 

[Method/process] Select the Chinese abstracts of 9 core journals of 
archival science from 2012 to 2022 as the analysis sample, take the 
CNKI database as the source database, use the Python open source 
toolkit pkuseg to carry out Chinese word segmentation, build the LDA 
model with gensim, and use pyLDAvis presents interactive 
visualization of various topics based on web. According to the 
visualization results of pyLDAvis, the topic is named. According to 
the probability distribution of document-topic and the time item, the 
hot topics and the topic evolution process are analyzed. 

[Result/conclusion] According to the LDA model, it is possible to 
effectively distinguish the topics of research in the field of 
archival science in China. From 2012 to 2022, there are 14 topics in 
the field of archival science in China, including 5 hot topics; Three 
topics showed an upward trend, one topic showed a downward trend, and 
10 topics showed a band trend of varying degrees 
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